从零开始的风控模型(一)数据分析与准备,滚动率、迁移率和Vintage分析 您所在的位置:网站首页 smap 唱功 从零开始的风控模型(一)数据分析与准备,滚动率、迁移率和Vintage分析

从零开始的风控模型(一)数据分析与准备,滚动率、迁移率和Vintage分析

#从零开始的风控模型(一)数据分析与准备,滚动率、迁移率和Vintage分析| 来源: 网络整理| 查看: 265

写在最前:

实际风控模型师工作的流程中,关于数据的许多定义并不像Kaggle竞赛一样给定。通常变量X需要自己挖掘,目标变量Y也需要通过多方分析和协商决定。换言之,通过什么样的数据训练你的模型,模型到底需要甄别出什么样的“坏人“,需要风控建模师根据业务要求、数据分析、行业经验综合得出,在此介绍一种比较通用的方法。其中涉及到的一些术语,欢迎浏览我们的风控小百科。

一、风控中,什么样的人才是怀样本?

代入一个情景有助于大家理解:

小A和小B正在为某12期贷款的产品建立申请评分卡(A卡,Applicantion Card),正在为坏样本的定义而争吵。

如上的场景可能也确实是大家的一个困扰。实际上,在巴塞尔协议中,也对违约的定义有所描写,巴塞尔协议将90天逾期或超限作为了定义之一。实际的信贷场景下,90天的逾期时间较长,可能带来样本比例失衡,逾期时间过长未能正确反应坏样本等不足,因此需要通过一些数据分析得出坏样本的定义,因此祭出我们的数据分析武器库:Vintage分析、迁移率分析、滚动率分析

迁移率:

小A和小B学会了迁移率这个概念之后(如何根据得出迁移率表格和如何查看之后请等待后续文章,此处记得小A和小B的结论就可),制作了如下的表格:

周期2022-012022-022022-032022-042022-052022-06M0-M123.4%16.7%15.8%13.6%13.1%13.2%M1-M225.7%22.7%30.7%30.3%31.1%31.3%M2-M341.0%41.4%44.3%38.7%40.9%40.5%M3-M465.6%69.4%62.4%64.4%72.1%64.3%M4-M581.4%88.3%82.0%85.3%89.3%88.3%M5-M685.8%83.6%85.1%88.7%85.6%88.4%

迁移率描写了每个月,每个逾期时长的变化情况。

经过观察,小A和小B发现M4-M5及以后的迁移率很高,达到80%以上,意味着80%以上进入M4的客户都进入了更坏的M5,因此他们达成一致,M4的客户已经够坏了,80%以上的M4客户都变坏了,很少有M4的客户反而变好的,因此初步将坏样本的定义定在逾期90天(M4+)。

滚动率:

小A和小B觉得迁移率的分析不够,还需要在找些分析结果证明刚刚的结论,于是又学会了滚动率这个概念(如何根据得出滚动率表格和如何查看之后请等待后续文章,此处记得小A和小B的结论就可),制作了如下的表格(由于数据系编造,可能存在迁移率和滚动率无法对应的情况):

滚动率描写了同一批样本,在观察点前一段时间和后一段时间其最大逾期时间的转化关系。

经过观察,小A和小B观察到了M4+的客户其变成好(M0)的比例只有4%,80%以上没有做出偿还动作,仍旧保持当前的逾期时长,因此更加确信了设定逾期90+天为坏样本。

决定完逾期天数的事情之后,小A和小B又产生了新的困惑。

在阅读公众号风控说关于账龄分析的博文之后,小A和小B学会了Vintage分析,在设定逾期90+为坏样本之后,制作了如下的表格和图片

经过观察,小A和小B发现从产品的第8个月开始,逾期率就很少或不在增加了,也就是说坏客户经过8期以后,就表现得差不多了,不需要拿12期的所有坏客户,只需要拿前8期逾期90+天的作为坏客户就行了。

总结:经过迁移率分析、滚动率分析,小A和小B确认了究竟逾期多久才算坏样本;经过Vintage分析,小A和小B确认了该产品的成熟期(表现期)。

最后,坏样本的定义如下:在表现期8期(8个月)内逾期M4+(逾期90+天)的用户

二、风控模型中的常用变量

小A和小B接下来为使用什么样的数据作为入模变量犯了愁,以前做学校项目和数据科学竞赛可没轮到自己做变量。仔细思考一番后,他们想到了以下的几个方面来获取变量。

用户申请信息用户申请贷款的时候,填写过一些个人信息:性别、年龄、学历、房产信息等。Question:用户难道不会瞎填吗?Answer:会的,只不过个人认为甄别信息准确应该属于反欺诈的范畴(或许可以通过数据埋点的方式解决),信用模型应该选择相信这些数据的前提下对用户进行信用评级。人行征信信息小A和小B随后也想到了征信信息,但是征信报告是非格式化的,如何提取出有效信息呢。他们看到的征信报告包含以下内容:1)基本信息包含被征信人的个人身份信息、居住信息、职业信息、通信信息等。具体包括姓名、 性别、证件类型、证件号码、出生日期、学历、通信地址、联系方式、婚姻状况、配偶 姓名、居住信息、职业信息等数据项。2)信用交易信息

目前来看,埋点信息确实是未来的一个方向,但是埋点数据容易因贷款申请场景不一而不同,使用它的公司也不是很多,应用的场景在笔者看来更偏欺诈,信用风险方面其信息应该弱一些。

三.总结

一图以蔽之:

这一篇讲述了模型的前置工作,如何确认建模所需的数据,其实质是确认观察期与表现期、以及需要何种数据视作自变量进行建模。下一篇讲讲如何建模逻辑回归的评分卡模型。

就这样,收工!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有